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Проблемы и перспективы развития 
поисковых систем 


Рассмотрены важнейшие проблемы функционирования ведущих поисковых систем — недостаточный учёт и 
использование естественного языка на этапах формирования запроса и поиска информации. Перспективы 
видятся в использовании нового подхода к структурной организации языка, снимающего много противоречий 
классической лингвистики и позволяющего заменить «поиск по ключевым словам» на «поиск по знаниям». 


Текущее состояние поиска в ПМТЕВМЕТ 


Поиск как один из аспектов моделирования речевой деятельности. Поиск в МТЕВМЕТ — 
одна из наиболее продвинутых и воспринятых в мире современных информационных тех- 
нологий, значительно облегчившая и ускорившая коммуникативные процессы, связанные с 
хранением, накоплением и использованием разноплановой (текстовой, графической, 
акустической и др.) информации, гарантируя при этом сохранность качества документов 
на момент цифровой обработки. На электронные носители перенесено огромное ко- 
личество информации. Автор был свидетелем, когда в конце девяностых годов еще только 
ставились вопросы компьютеризации языков (Димитар Шишков — пионер болгарской ком- 
пьютерной школы и неутомимый энтузиаст переложения на электронные носители всей 
информации, накопленной человечеством [1]). Многие, только еще поднимавшиеся тогда 
вопросы, сегодня решены; однако ряд проблем представления, накопления, хранения и ис- 
пользования знаний в естественно-языковой форме все еще актуальны и остаются нере- 
шенными по сей день. Далее пойдет речь о текущем состоянии информационного поиска, о 
вопросах представления и использования знаний, хранимых на электронных носителях. 
Предварительно необходимо представить платформу, с которой рассматриваются заде- 
кларированные вопросы. 

Информационный поиск представляет собой попытку моделирования лишь одной 
из сторон многогранной речевой деятельности (РД) человека. Получив в руки мощное 
средство представления и обработки символической реальности [2], заданной в тексто- 
вом или речевом виде и сформированной в качестве глобальной компьютерной сети, 
человечество (в который уж раз!) обольстилось надеждой успешного моделирования 
интеллектуальной деятельности человека, связанной с вопросами хранения, накопле- 
ния, структурирования, поиска и понимания символической информации. В работе 
ограничимся рассмотрением лишь вопросов обработки естественно-языковой информации, 
представленной на текстовом или речевом уровнях. 

Конечно, информационный поиск представляет собой лишь одну из сторон много- 
гранной речевой деятельности человека, связанной с хранением, обработкой и поиском 
необходимой информации. Речевая деятельность, в общем случае, представляет нам еще 
целый спектр направлений, которые в той или иной мере отражены в современных ин- 
формационных технологиях. Перечислим важнейшие направления моделирования речевой 
деятельности человека, которые уже в определенной степени реализованы в современных 
информационных технологиях: 
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поиск в ПУТЕКМЕТ - моделирует способность человека обращаться к накопленным зна- 
ниям, учитывая всевозможные схемы трансформирования и преобразования информации; 
экспертные системы — моделируют процессы накопления и обработки знаний в опре- 
деленных достаточно узких предметных областях с целью формирования и принятия 
решений в конкретных условиях и ситуациях; синтез/анализ текстовой информации — 
практически обязательная процедура всех технологий, связанных с обработкой тексто- 
вой информации; синтез/анализ речевой информации — мощное направление, связанное 
с вопросами обработки речевой деятельности человека; автоматический перевод — мо- 
делирование многоязычной компетенции человека с целью трансляции речевой/текстовой 
информации с одного языка на другие; естественно-языковой интерфейс — технологии, 
моделирующие возможности общения с компьютером посредством голосового тракта, а 
не через клавиатуру (Билл Гейтс грозился через десять лет выбросить клавиатуру — не 
вышло); — автоматическое формирование, накопление и использование знаний. 

Перечисленные аспекты речевой деятельности в комплексе представляют интел- 
лектуальную деятельность человека, отдельные стороны которой мы пытаемся воплотить 
в ряде современных информационных технологий. Еще раз подчеркнем, что указанные 
направления формируют целый кластер информационных технологий, для которых об- 
щей платформой будет естественно-языковая форма представления информации. Поэтому 
все названные технологии обозначим единым термином информационные естественно- 
языковые технологии (ИЕЯТ). Этот термин адекватно отображает важнейшую особен- 
ность указанных технологий и давно используется автором; особенность в том, что во 
всех этих случаях общей проблемой выступает обработка естественно-языковой ин- 
формации. Состояние указанных ЕЯ-технологий детально проанализировано в работах 
автора [3], [4]; здесь мы кратко проанализируем важнейшие аспекты текущего состояния 
лишь поисковых систем, ссылаясь на признанные авторитеты. 

Относительно возможностей и качества поисковых систем сегодня уже формируется 
определенный скепсис — глобальная система знаний пока еще не может быть осмыслена в 
структурном и функциональном планах небольшим интеллектуальным коллективом раз- 
работчиков. Первоначальная эйфория как пользователей, так и идеологов постепенно 
сменяется непредубежденным анализом реальных возможностей и перспектив. 

Реальное положение поиска в мировой паутине. Здесь ничего не остается как со- 
гласиться с компетентным мнением ведущих специалистов в области информационного 
поиска: 

— «Среду \ойа \М1ае \Меб можно сравнить с огромной энциклопедией, насчиты- 
вающей более 800 млн страниц, которую забыли оснастить оглавлением» (на запрос 
«ПУТЕВМЕТ» откликается более 4 млн страниц); однако жизнь, время и рынок диктуют 
свои законы — искать более эффективные способы удовлетворения информационной 
потребности пользователей» [5]; 

— «ИМТЕКМЕТ похож на большую свалку — там есть все, но найти это невозмож- 
но» [6]; 

— порочен сам принцип формирования базы знаний: традиционные \У!еб перепол- 
нены неструктурированной информацией [7], в каждой из областей знания создаются 
миллионы ресурсов, лишь малая часть которых содержит оригинальную информацию и, 
следовательно, по запросу получаем много тысяч ссылок на различные ресурсы — анализ 
их занимает много времени, но все равно не позволяет сформировать уверенность в том, 
что не пропущены самые ценные ресурсы; 

— после выполнения процедуры поиска нет никакой гарантии, что в ПМУТЕКМЕТ- 
ресурсах не осталось нужной нам информации; 
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— основные проблемы связаны с обработкой естественно-языковой информации; 

— нерелевантность поиска (информационный шум из-за многозначности ключевых 
слов — явление синонимии); тематическое смешение результатов поиска; 

— неполнота поиска — вместо поиска информации нам представляется поиск ссылок 
и вместо мгновенного доступа необходимая информация отдаляется за некоторый барьер; 

— вместо поиска в ширину получаем поиск в глубину; 

— по запросу «ПУТЕКМЕТ» Яндекс, например, предлагает 602 млн страниц; 

— желательно бы общаться на естественном языке, но не на уровне ключевых слов; 

— вместо «глобальной базы знаний или коллективного разума» создан «глобальный 
хаос» [8]; 

— за более чем десятилетний период \еЪ настолько развился, что близок к 
состоянию переполнения (проклятие многомерности!); 

Основные проблемы. Обобщив предыдущие оценки, можем теперь акценти- 
ровать внимание на важнейших проблемах развития поисковиков: 

— компьютерная программа не способна, загрузив произвольный документ 
(будь-то \еБ-страница или какой-то файл), понять его содержание. Требуется все 
равно программист, который должен разобраться в них и понять смысл или семан- 
тику каждого из тегов. С точки зрения компьютера сеть \М\МУ\ — это полная не- 
разбериха; выход — семантический \е6 [9]; 

— у компьютера нет надежного средства обрабатывать семантику документа [10]. 
Семантическая сеть превращается в модель мира, но по мере ее создания, роста раз- 
меров и масштабов она становится быстро неконтролируемой; 

— нет единственного универсального средства решения проблемы релевантности 
и полноты — необходимо разумное комбинирование всех доступных средств [11]. 

Какими же видятся перспективы построения «всемирной базы знаний» самим 
разработчикам? 

— построение всеохватывающей онтологии; 

— создание семантического У!ЕВ, ориентированного на работу с полными естественно- 
языковыми текстами без дополнительной разметки; 

— контекстные технологии; 

— аннотации ВОЕ - декларирование объектов, атрибутов и отношений между ними; 

— система должна знать, что она знает, т.е., требуется метазнание о знании; 

— необходимо понимание естественного языка; 

— должны проводиться тщательные исследования синтаксиса и семантики. 


1 Перспективы развития поисковиков 


Взгляд со стороны. Обобщенный вывод краткого обзора текущего состояния инфор- 
мационного поиска напрашивается следующий: на порядок дня встают проблемы структу- 
рирования накопленных знаний, формирования семантического \еБ и организации 
общения пользователя с Мировой паутиной посредством естественного языка с использо- 
ванием диалога. Практически основная проблема сводится к общению с мировой сетью 
посредством естественного языка как символической формы отображения произвольной 
информации. Весьма показательной в этом плане выступает работа Г.С. Осипова о 
перспективах построения семантического \еЬ [12], где центральной проблемой выступает 
возможность использования естественного языка. 

Позвольте теперь авторам высказать свое видение решения указанных проблем, тем 
более что уже имеются для этого весомые аргументы. Информационный поиск пред- 
ставляется лишь одним из аспектов функционирования речевой деятельности человека, 
которая реализуется индивидуальной речевой системой (ИРС), и по признанию ведущих 
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специалистов лингвистики, психологии, философии, кибернетики базируется на двух 
составляющих — индивидуальной языковой компетенции человека (на осознанном, либо 
чаще подсознательном уровне) и накопленных на текущий момент разноплановых зна- 
ниях об окружающем мире — среде его обитания. Термин ИРС был введен Л.В. Щербой [13], 
а согласно существующим современным тенденциям первую составляющую определим 
как лингвистический процессор (ЛП), а вторую - как базу знаний (БЗ), где зафиксирована 
модель среды нашего обитания, а в общем случае — модель внешнего мира. Важно отме- 
тить, что ЛП и Б3З находятся в диалектическом единстве, структурно единообразны и рабо- 
тают друг на друга. Индивидуальная речевая система функционирует в режимах синтеза 
(говорения) или анализа (понимания) текстовой/речевой информации. Все перечисленные 
ранее современные информационные технологии пытаются моделировать лишь отдельные 
стороны речевой деятельности человека, не сводя их в единую проблему. Если же мы 
хотим моделировать более-менее адекватно особенности функционирования речевой 
системы человека, естественно, встает вопрос о формировании модели ИРС как диалекти- 
ческого единства ЛП и БЗ. А что имеем на сегодняшний день? 

Первая составляющая ИРС -— лингвистический процессор, определяющая языковую 
компетенцию индивида, в данный момент представляется существующими достижениями 
классической лингвистики, спрессованными в грамматиках (фонология, морфология, 
синтаксис, семантика), всевозможных словарях, руководствах и т.п., т.е. всем потенциалом, 
накопленным за 350 лет своего существования (с момента выхода в свет в 1660 г. первого 
квалифицированного исследования языка — Грамматики Пор-Рояля). Вторая же состав- 
ляющая — база знаний, где интегрируются все наши знания о себе и среде нашего 
обитания, практически остается белым пятном в нашем языкознании со всеми нере- 
шенными проблемами (что такое «знание», как идет процесс его накопления, как орга- 
низовано взаимодействие с ЛП ит.д., ит.п.). 

Вывод кардинальный: если мы хотим более-менее адекватно моделировать отдель- 
ные аспекты речевой деятельности человека, необходимо построить модель нашей 
лингвистической компетенции М‚, создать модель М> нашей среды обитания (модель 
мира) и замкнуть их друг на друга через соответствующий интерфейс. Эта идея, хотя и 
неявным образом, в свое время озвучена была Г.П. Мельниковым: только при наличии 
модели мира (среды нашего существования) возможна интерпретация (понимание) рече- 
вого сообщения; естественно, здесь сразу возникают вопросы взаимодействия образной и 
символьной информации [14]. Резюмируя, можем сказать, что каждая из существующих 
информационных естественно-языковых технологий на сегодняшний день пытается мо- 
делировать лишь отдельные аспекты речевой деятельности человека, не затрагивая в целом 
важнейшие особенности существования и функционирования самого объекта исследования — 
индивидуальной речевой системы. Это касается, собственно, и существующей идеологии 
формирования общей концепции информационного поиска — это общая беда всех совре- 
менных технологий, ориентированных на обработку естественно-языковой информации. 

Возможности современной лингвистики. Может ли современная лингвистика 
удовлетворить запросы поисковиков? К сожалению, приходится констатировать: текущее 
состояние классической лингвистики не в состоянии обеспечить разработчиков средствами 
кардинального изменения положения дел. Причины здесь двоякого плана: во-первых, по 
утверждениям самих же лингвистов высшей квалификации [15], собственно лингвисты 
внесли лишь незначительный вклад в развитие информационных технологий, во-вторых, 
на данном этапе лингвистика (снова же классическая) не в состоянии разрешить те 
проблемы, которые выдвигают нам современные технологии, стремящиеся все полнее мо- 
делировать речевую деятельность человека. 
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В работе «Информационный подход к структурной организации языка» [3] дан 
тщательный анализ существующего положения дел в классической лингвистике. Очень 
кратко можно резюмировать: на данный момент наши знания о языке носят споради- 
ческий (не системный [16]) характер, в грамматиках больше исключений, нежели правил, 
не определен сам объект синтаксических исследований, лингвистическая общественность 
давно созрела к отрицанию существующего деления на простые/сложные предложения 
[17], не определено до сих пор само понятие словосочетания. Почему это так? — ответ 
находим у Б.Ю. Городецкого [18]: «Многие беды в языкознании происходят из-за того, 
что до сих пор язык считают формой отображения мысли, а не способом организации и 
представления знаний». Вот основные причины всех проблем языкознания. 

Новый взгляд на структурную организацию языка (новый синтаксис). В про- 
тивовес классической лингвистике автором Ю.И. Кисленко предложен новый подход к 
структурной организации языка, который рассматривает текст как конечный продукт ин- 
теллектуальной деятельности человека и учитывает при этом давно известные особен- 
ности восприятия и обработки информации нашей нервной субстанцией, в частности, 
зрительным анализатором. Предтечей такого похода стали работы «Нейрофизиологи- 
ческие основания структурной организации языка» в докладах НАН Украины [19] и моно- 
графия «От мысли к знанию» [20], оказавшиеся фундаментом нового взгляда на синтаксис. 

Этот подход позволил на новых основаниях представить структурную организацию 
языка, основные положения которой представляются следующими: 

— с позиций последних достижений нейрофизиологии удалось формально опреде- 
лить понятие «ситуации» как элемента восприятия внешнего мира — эта составляющая 
определяется генетическим уровнем нейронной организации зрительного тракта и не за- 
висит от расы, нации, языка; 

— вербализованная форма описания отдельной ситуации определяется как базовая 
семантико-синтаксическая структура (БССС), которая определена на содержательном, 
графическом и формальном уровнях; это двусоставная монопредикатная структура опи- 
сания произвольной ситуации внешнего мира, все составляющие которой определены на 
атрибутивном уровне; 

— структурный уровень организации языка, следовательно, определяется одной- 
единственной структурой БССС, а все многообразие структурных форм сообщения 
вкладывается в монопредикатный или полипредикатный уровни использования БССС; 

— при таком подходе нам не нужна концепция словосочетания: любые структурные 
разновидности (кроме идиоматических образований, конечно) определяются как транс- 
формации БССС либо на монопредикатном уровне, либо как схемы их взаимодействия на 
полипредиктаном уровне; 

— в итоге, структурная организация представляется в виде стройной системы 
из множества однотипных структур, и это — справедливо для всех языков; 

— очень важно еще указать, что вербализованная форма описания отдельной ситуации 
в виде БССС на содержательном уровне представляется как отдельный «квант знаний» 
относительно описываемой ситуации; все знание (фрагмент знания) представляется в виде 
взаимосвязанной совокупности отдельных квантов знаний, реализованных в рамках БССС. 
Это то, что касается синтаксиса естественного языка. Кстати, эта платформа структурной 
организации языка в качестве «базового синтаксиса» была презентована автором еще на 
конференции в Варне по компьютеризации естественных языков [21]. 

Семантика. Относительно текущего состояния семантики отсылаем читателей 
снова к «Первому московскому лингвистическому альманаху», где один из фундаторов 
модели «Смысл — Текст» Н.В. Перцов дает непредубежденную характеристику существующих 
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семантических концепций, и оценка эта не очень утешительная. Во всех семантических 
построениях объектом исследования выбирается слово (узел), а не знание (не структура, 
связывающая ряд категорий определенными функциональными зависимостями); важным 
является также замечание, что «семантика слова» представляется лишь бледной тенью 
«семантики образа» [15]. По нашему предположению семантика (как совокупность зна- 
ний) должна формироваться в базе знаний при формировании модели мира посредством 
взаимосвязанного множества отдельных квантов знаний. В концентрированном виде новый 
взгляд на структурную организацию языка представлен работами [22], [23]. 

Предложение. Если теперь вернуться к проблемам информационных технологий, 
можем констатировать, что предложенное системное видение структурной организации 
языка во многом с иных позиций представляет проблемные вопросы информационного 
поиска. Если еще вспомним, что информационный поиск пытается моделировать одну из 
составляющих речевой деятельности человека — обращение к знаниям (смотри модель 
ИРС), то уже становится очевидным, что данный подход существенно изменяет идеоло- 
гию формирования лингвистического процессора и, соответственно — его модели М,, а 


также выдает нам определенные ориентиры для формирования базы знаний в виде М,, 


где элементами восприятия, хранения и накопления информации представляются уже от- 
дельные кванты/фрагменты знаний, а не совершенно неструктурированный текст. Поиск, 
формируемый при таких условиях, определим как «поиск по знаниям» в отличие от 
существующей идеологии «поиска по ключевым словам». Практически теперь мы имеем 
новую информационную платформу для моделирования всего кластера информационных 
естественно-языковых технологий. 


2 Эмуляция «поиска по знаниям» 


Модель поиска «по знаниям». Сложность моделирования предложенной схемы 
поиска определяется следующими особенностями. Все существующие поисковики, 
практически, ориентированы на поиск по ключевым словам (отдельным или их множествам, 
связанным или нет логическими отношениями И, ИЛИ, НЕ). В последнее время поиск 
иногда ведется уже по полному тексту, однако, при этом абсолютно игнорируется внутрен- 
няя структура сообщения. Известно, что любое предложение как структура представляется 
множеством категорий, связанных определенными функциональными зависимостями; ни 
первое, ни второе не учитывается современными поисковиками; не используются также 
предложенные еще Н. Хомским [24] трансформационные грамматики; кроме того, от 
пользователя скрыты особенности индексирования исходных массивов и нюансы собствен- 
но процедуры поиска. В соответствии с таким положением вещей сложно сравнивать 
эффективность работы различных поисковиков — конечная оценка остается всегда за 
пользователями. Все эти факторы определяют сложность реализации и оценки предложен- 
ного подхода к поиску на фоне развитой структуры \\ЕВ. Тем не менее, процедура про- 
верки предложенного подхода с целью сравнения с существующими технологиями пред- 
ставляется следующей. 

Если мы определяем «знание» (или его часть) как некоторое множество категорий, 
связанных определенными функциональными отношениями, то традиционный поиск 
по ключевым словам необходимо теперь заменить поиском по структурам с иденти- 
фикацией категорий и функций. Это определенным образом приближает нас к поиску 
по полному тексту. Особенность лишь в том, что человек однозначно идентифицирует 
(понимает) текст независимо от всех его трансформаций либо от порядка слов, что 
особенно важно для информационных технологий, ориентированных на обработку 
флективных языков. В последнем случае даже отдельная базовая структура как 
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«квант знаний» может быть развернута более сорока миллиардами вариантов, что 
сразу ставит под сомнение процедуру поиска по полному тексту; обойти это препят- 
ствие возможно лишь при дополнительных ограничениях и преобразованиях. Человек 
эффективно решает эту проблему понимания за счет обращения к своим знаниям и 
широким возможностям их трансформирования; современные же технологии пока не 
обладают возможностью такой гибкой трансформации, как и не обладают вообще 
некоторым аналогом памяти человека — базой знаний. Тем не менее, покажем, насколько 
эффективным представляется дополнение существующих процедур поиска лишь некоторыми 
возможностями учета структур запроса и их трансформирования. 

Эксперимент. Итак, суть виртуального эксперимента по модифицированию инфор- 
мационного поиска представляется следующим образом: выбирается произвольный запрос 
и обрабатывается на пяти ведущих поисковиках; двадцать первых документов выдачи 
(презумпция ранжирования по релевантности ???) каждого поисковика выбираются в ка- 
честве тестовых массивов для реализации «поиска по знаниям». Поиск на тестовых мас- 
сивах выполняется вручную экспертом, который, конечно же, при определении реле- 
вантности и трансформирования структур пользуется своими «знаниями». При этом 
авторы использовали при виртуальном поиске лишь три из всего спектра перечисленных 
ранее трансформаций: исходный запрос с глагольной формой предикатора трансформи- 
ровался последовательно в субстантивную, адъективную и адвербиальную формы. В тесто- 
вых массивах для каждого поисковика вручную выполнялся поиск одновременно по трем 
трансформированным структурам и за определенным критерием определялась релевант- 
ность документов выдачи. 

Объектом исследования, таким образом, является интернет — система, более точно 
— технология поиска информации. Целью виртуального эксперимента было сравнить 
эффективность существующих схем поиска (поиск по ключевым словам) с предла- 
гаемой схемой поиска по структурам (поиск по знаниям). 

Тестированию подверглись пять ведущих систем: 

— Ооозе — наиболее популярная поисковая система (ВИр//\/\и\.соое.сот/); 

— Уароо — одна из ведущих американских поисковых систем (БИр//уаВоо.сот/); 

— Вше - популярная система корпорации Мисгозой (БИр//\\у\и.Ыте.сот/); 
Уапдех — самая известная российская поисковая система (ВИр/Ау\лх.уапаех ти/); 
Мета - украинская поисковая система (БИр//теа ма/). 

В качестве запроса выбрана была следующая фраза: «Писатель, который получил 
Пулитцеровскую премию в 2009 году». 


Рисунок 1 — Графическое представление запроса О 
Для поиска по ключевым словам эта информационная потребность представляется 
в виде последовательности: О), = ( писатель Г получил Пулитцеровская “^^ премия г” 
«2009год») , где С\ означает логическое «И». Графическая интерпретация такого за- 


проса представлена рис. 1, где заштрихованная область отображает конъюнкцию 
ключевых слов запроса. 
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В таком виде запрос обрабатывается на всех поисковиках; при этом по каждому из 
них фиксируется выдача первых двадцати документов, на которых в дальнейшем вруч- 
ную выполняется поиск «по знаниям». 

Для виртуального (ручного) поиска исходный запрос представляется в первоздан- 
ном виде, зафиксированном на уровне базовых структур (рис. 2). 


0% Пулит- 
еровскую, 
АНКОБ) 
2009 году 
ов 


Рисунок 2 — Структура запроса О. при поиске по знаниям 


( писатель 
х ра 


— =. — 


Категории запроса: Зибу — субъект, Айт(5иб7 ) — атрибут субъекта, Рге4 — преди- 
катор, ОБ7 — объект, АЙ (ОБ ) — атрибут объекта, функции запроса: А, — иметь предикат, 
К, — иметь объект, А, — иметь временную характеристику. 

Здесь мы имеем структуру естественно-языкового сообщения, реализованную на 
множестве категорий «писатель», «получил», «премию», «Пулитцеровскую», «2009 год», 
связанных определенными отношениями А,, ^,, К,. Именно совокупность категорий и 
связывающих их функций однозначно определяет смысл (семантику) сообщения. Указан- 
ная структура уже как полнотекстовая на смысловом уровне выбирается в качестве запроса 
для виртуального поиска на полученных выборках из двадцати документов для каждого 
поисковика. Кроме того, исходя из авторского видения структурной организации текстовой 
информации, семантически адекватными запросу О, будут и сообщения, фрагменты кото- 
рых представлены его трансформациями. Таким образом, «поиск по знаниям» одновремен- 
но включает в себя поиск по всем разновидностям запроса: 

— О, — Писатель, который получил Пулитцеровскую премию в 2009 году...., 

— О., — Писатель, получивший Пулитцеровскую премию в 2009 году ....... у 

— О, — Писатель, получая Пулитцеровскую премию в 2009 году........... : 

— О., — Получение писателем Пулитцеровской премии в 2009 году.......... 

Важно здесь обратить внимание на многоточие в конце каждой разновидности 
запроса — это означает, что релевантными будут документы, сообщения которых вклю- 
чают в себя как минимум указанные разновидности структур О., О. , О.., О... 

Для сравнения эффективности поиска по двум стратегиям воспользуемся оценкой 
релевантности полученных результатов. При поиске по ключевым словам запрос О, — 
соответствие документа выдачи информационной потребности пользователя (его 
релевантность) оценивалась следующим образом. Если в документе выдачи в одном со- 
общении совпали пять ключевых слов, то выставлялась оценка «пять», если четыре, то 


оценка — «четыре» и т.д. до единицы. Полученные данные отображаются в виде гра- 
фиков для каждой поисковой системы (рис. За). 
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Рисунок 3 — Сравнительная характеристика оценивания релевантности (а — 
оценка релевантности с помощью поиска по ключевым словам; б — оценка 
релевантности с помощью поиска по знаниям) 
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Во втором случае — «поиск по знаниям» — сравниваются уже фрагменты структур 
(как совокупность категорий, связанных определенными отношениями). Совпадение тре- 
бует идентификации не только категорий, но и функций, их связывающих. Таким образом, 
если в документе (отдельных его сообщениях) имеется структура, совпадающая целиком 
со структурой запроса из пяти элементов с учетом их функциональных связей, то вы- 
ставляется оценка «пять», если совпадает четыре элемента совместно с их функциональ- 
ными связями, то выставляется оценка «четыре» и т. д. Результаты «поиска по знаниям» 
для всех тестируемых поисковиков (оценка релевантности) представлены рис. 36). 

При сравнении результатов сразу становится очевидным значительное повышение 
релевантности выдачи «поиска по знаниям» для всех поисковиков: Соосе (+0,9), Уабоо 
(+1,55), Вше (+1,15), Уапдех (+1,0), Мета (+1,5). Конечно, эти результаты получены на 
очень коротких выборках и, вероятно, заранее были прогнозируемы; однако следует под- 
черкнуть очень существенные обстоятельства: во-первых, используемые при поиске «по 
знаниям» трансформации вполне доступны для реализации на поисковиках по чисто 
формальным критериям, во-вторых, здесь решается важный принципиальный момент — 
мы получаем гарантию того, что после проведения поиска в подобном режиме мы не 
пропустим интересующих нас релевантных документов, в-третьих, мы можем значитель- 
но более точно в запросе формулировать свою информационную потребность, поскольку 
сравнение ведется «по знаниям». 

Заключительная часть. Таким образом, мы получили в итоге результат сравнения 
машинного поиска с поиском информации человеком. Приоритет, конечно же, остается 
за человеком, и такой исход можно было бы предположить заранее, учитывая что: 

— машина до сих пор не снабжена знаниями, в которых зафиксирована модель 
нашей среды обитания как реальной, так и виртуальной; 

— не имеет достаточного опыта общения со средой; 

— не обладает интуицией, предвидением и многими-многими другими способно- 
стями; 

— не обладает той языковой компетенцией, которая спрессована в современ- 
ных грамматиках лингвистических фолиантов и лишь очень незначительно учиты- 
вается в современных информационных технологиях. 

Резюмируя, можем подчеркнуть еще раз то, о чем речь шла ранее: до сих пор мы 
имеем лишь очень приблизительное представление о самом объекте исследования — ин- 
дивидуальной речевой системе человека, реализующей речевую деятельность в режимах 
синтеза/анализа языкового сообщения, и в современные информационные технологии за- 
ложена лишь очень незначительная и несистемная толика наших знаний об этой — одной 
из наиболее сложных интеллектуальных функций человека. 

В эксперименте же были учтены лишь два момента языковой организации: отдель- 
ные схемы трансформирования сообщения наподобие порождающих грамматик Н. Хом- 
ского, дополненные еще особенностями структурной организации языка, рассматрива- 
ющими произвольный текст как множество однотипных синтаксических структур. 
И первое, и второе требуют лишь ряда формализованных процедур, касающихся транс- 
формации как запроса, так и текстов документов. Однако на сегодняшний день при сов- 
ременном развитии вычислительной техники и систем программирования -— это, по 
существу, рутинные стандартные процедуры, которые без труда могут быть переложены 
на плечи компьютера. 

Заключительный тезис фактически повторяет изначальное положение вводной части: 
чтобы более-менее адекватно моделировать отдельные аспекты речевой деятельности 
человека (и поиск информации в том числе) необходимо хорошо изучить сам объект 
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исследования — индивидуальную речевую систему человека как совокупность лингви- 
стического процессора и базы знаний — построить затем модели электронные обеих со- 
ставляющих и замкнуть их друг на друга. Это практически единственный путь совер- 
шенствования и развития всех ЕЯ-технологий. Однако отдельные частные вопросы можно 
и нужно решать уже сегодня, но на принципиально другой основе, формируемой на стыке 
всех научных направлений, связанных с исследованием речевой деятельности человека. 
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ЮЛ. Кисленко, А.В. Терентьев 

Проблеми та перспективи розвитку пошукових систем 

Розглянут! важлив! проблеми функшонування провдних пошукових систем — недостатнй облк та 
використання природно] мови на етапах формування запиту та пошуку 1нформаци. Перспектива бачиться 
у використанн1 нового шдходу до структурно! органзаций мови, який зн!мае багато суперечностей 
класично! лнгастики та який дозволяе замнити «пошук за ключовим словом» на «пошук за знаннями». 


Уи.[. Ка5епко, А.Г. Тегеппеу 

Ргоетз апа Ргозресв о{ Зеагсв Епоше$ 

Те пой зееп аё опсе ргоет оЁ Фе |еаФ тя зеагсВ епотез 15 1о\у сопу4егайоп ап аррИсайоп оЁ пабага1 
1апопасе оп фе ${арез оР 4детап4 азз1етеп ап@ шЮюппайоп зеагсН. ТБе ргозресй$ аге сопз1Аеге4 ш 
аррИсайоп оРа пе\ арргоасВ {0 Фе згасага| огоаплхайоп оЁ апэпасе. ТЬ1$ арргоасВ гедисез сопга сноп 
о# с1азз1са1 Ппеи1$Исз ап 4еПуегз ю свапое “Кеу\м’ога зеагс” 10 “Кпо\е4ее зеатс|”. 
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